JSAI2026 実業務ドキュメントコーパスを用いたRAG手法の体系的性能比較 - daiiz

JSAI2026 実業務ドキュメントコーパスを用いたRAG手法の体系的性能比較

テーマ

実業務文書を対象に、複数のRAG手法を体系的に比較する研究

Nomaticaの事例

生成回答そのものではなく、リトリーバが適切な根拠を取れるかに注目する

背景課題

RAG手法は多様化しているが、実業務文書での比較知見はまだ少ない

定量的な評価手法を確立したい

汎用ベンチマークは単一文書・事実質問に寄りやすく、実務の複数文書参照や提案型質問とはズレがある

わかる daiiz.icon

RAG全体評価は生成器の影響も混ざるため、まず検索品質を分けて見る必要がある

まずはRetrieverに焦点を当てる、いいね daiiz.icon

Retrieverの評価結果と人間の定性的な評価は比例するという先行研究もあるとのこと

実験設定

実業務で使われる114文書、約2000万文字のコーパス

比較対象

Multi-Vector

章・節単位（意味単位）でチャンク化したのベクトル検索

ヒットしたものに対応する親文書を返す

独自のRAG手法

文書要約をヒットさせた後、章・節などの上位パスを辿り必要なものをコンテキストに入れる

Multi Agent

質問はLLMで自動生成

難易度

根拠がまたがる文書数 1〜5 で制御

質問タイプ 3種類

idea

クエリから回答が容易に求められないもの

knowledge

一問一答系

review

誤認の訂正。「本当ですか？」系のクエリ

評価指標

RAGASの Context Recall / Context Precision / F1 を使用

どれだけ正解根拠を拾えたか

取得コンテキストにどれだけ不要情報が少ないか

両方のバランスを見る

手法ごとの結果

Tree LLM

文書選択と章・節単位の探索により、必要な情報を段階的に絞り込む

精度重視のRAGでは有力

Multi-Vector

高速・低コスト

不要情報を増やしにくく、Precision重視の場面に向く

Multi Agent

複数カテゴリに情報が分散する高難度タスクで有効になりうる

ただし不要情報の混入が課題

GraphRAG

今回のような質問応答・根拠取得タスクでは苦戦

グラフ構造の作り方や検索戦略の調整が重要そう